查看原文
其他

全长转录组到底长在哪儿

小R 百迈客基因 2019-12-12


说起最新的测序技术,强大的三代测序技术可以说无人不知,其中受到大家吹捧的全长转录组当然也不负众望,科研那点儿事儿说的清楚明白,让人不得不服今天小编就通过一篇精彩的文章和大家看看全长转录组到底“长”在哪儿。


题目

利用全长转录组测序研究高粱转录组信息

A survey of the sorghum transcriptome using single-molecule long reads.


研究背景

高粱(Sorghum bicolor (L.) Moench禾本科、高粱属一年生草本植物,是重要的模式C4植物,也是重要的食物、饲料、纤维和能源来源,具有广泛的适应性,抗旱、耐涝。目前有几个品系的高粱已经完成基因组测序,但是转录组注释信息尚不完善特别是由于可变剪接和可变聚腺苷酸化形成的转录本还知之甚少


虽然二代高通量测序大量开展,但是收效较少。于是,研究者基于Pacbio RSII平台,通过全长转录组测序转录组水平对高粱的旱性做了深入分析。

 

下面我们全面地看看作者是怎么做的~


材料方法

实验材料:高粱BTx623品系的幼苗分成对照组和处理组培养基中加20%PEG作为干旱处理)

测序方法:Pacbio RS,构建1-2K,2-6K两种文库,数据量分别为5cell 和7cell,两种样品共测序28cell 。

研究结果

1.序列比对

对照和干旱处理组各测序14cell,获得1,838,330 ROI,全长的占48%,其余为非全长的,序列长度20bp-3886bp,平均长度为1042bp。

在测序量不足的情况下,三代测序数据有相对较高的碱基识别错误率(由于成本的限制),研究者开发了一套流程-TATPIS:这套流程是针对Pacbio RSII 测序平台的转录组数据分析的流程,可以进行校正错误、序列与参考基因组比对、鉴定所有的由于3’端APA位点不同和可变剪接事件形成的转录本。

经过TATPIS反复参考基因组比对接近95%序列比对到了参考基因组(只3数据);LoRDEC Proovread用短片段数据2数据)先对3数据校正,比对到参考基因组,比对率最低可达到77%;混合方式中,2数据校正3数据,校正的数据反复与参考基因组比对,比对效率达到96%说明不使用2数据也可以使3数据的比对效率达到很高的水平。(3数据准确性低的问题再也不用担心啦~)并且,本次研究中一共有14550基因的转录本被检测到。


图1 通过多种数据纠错的方法比较最终的比对效率

2.可变剪接及其形成的转录本分析

前人报道高粱中大约1500个基因的pre-mRNA 会经历可变剪接(AS)。本研究这个数目很庞大,一共10,053个可变剪接事件,只有2950被报道这表明已发表的高粱基因组中很多AS事件未被注释。



2 (a)3代测序检测到的可变剪接有注释信息比较;

(b) 基因可形成不同转录本个数统计


令人惊喜的下面这个例子:一个已知的基因以前认为产生一种转录本,但该研究发现这个基因可形成14种可变剪接转录本,也就是另外发现了13种转录本,如下图所示


3 一个基因通过可变剪接形成14种不同的转录本


验证3代测序中检测到的转录本的准确性,作者随机选取6个基因(些基因在参考基因组中只有一种转录本,但是3代测序检测到2个及以上转录本)设计引物对照和干旱处理组高粱中进行RT-PCR验证并且PCR片段切胶回收构建载体进行测序结果表明所有的转录本都是真实存在的。同时发现,有些转录本特异表达(表达或不表达,表达量高低不同例如: 下图中sb04g021010在对照中表达干旱处理后不再表达(蓝色箭头指向)sb040066450的两种转录本在不同环境下表达量不同(蓝色和黑色箭头指向




4 鉴定到的可变剪接形成的转录本的PCR验证(对照T:干旱处理


3.可变聚腺苷酸化(APA)

大多数的mRNA 3端聚腺苷酸化(APA)是真核生物转录本一种重要的转录修饰,来源于同一基因由于APA导致包含不同的3端,从而形成不同的转录本,增强了转录组的多样性。

该研究中发现14550个表达的基因中11013个基因有至少一个支持的polyA位点,其中,有20.9%的(2301)基因的A位点可以比对起始和终止密码子。分析发现7700个基因形成的转录本包含2个及以上聚腺苷酸化位点如下图a所示),其中,3%的位点在编码区的3UTR。为了检测编码基因剪接位点下游的A延伸是出现在基因编码区且没有A富集基因区剪接位点下游,可以表这不是因为oligod(T)引起的。(图b)展示基因的多个转录本在3UTR具有多种多聚腺苷酸化位点图c对polyAPCR验证随机选择几个基因做3RACE获得3完整的cDNA扩增验证APA事件。比如sb04g028450中红色、黑色、蓝色箭头指出的APA事件形成的转录本是与干旱处理相关的。


5 可变聚腺苷酸化分析

4.不同基因的表达分析

尽管在表达定量分析方面,与二代测序数据量相比,三代数据量有些不足,本文还是使用3代测序的数据粗略的进行了基因表达量分析,发现186个差异表达的基因,并随机选择10个基因进行了RT-PCR验证

5.基因及非编码分析

参考基因组比对发现2171个是基因组中没有注释的对这些基因通过tblastx 和blastx进行分析,总共发现971个新转录本。全部数据中有不足1%的reads比对到非编码序列,发现149个有注释的miRNA,20个miRNA;另外发现540个lncRNA。

文章亮点


  • 首创性地开发了TATPI流程分析三代转录组数据,特别在数据校正比对方面,对数据质量提升显著(只可用于有参);

  • 由于可变剪接形成的新转录本,随机选取进行验证,用PCR及一代测序验证结果一致,并且揭示,同一基因的不同转录本在不同环境下表达模式不同;充分表明可变剪接研究的必要性;

  • 聚腺苷酸化(APA)分析,发现了一个基因可能发生的APA事件并进行了PCR验证,同时,细致的分析A可变剪接位点的特征;

  • 分析内容包括编码RNA和非编码RNA,从基因序列结构分析到基因表达量分析均有涵盖,内容丰富、新颖;

  • 只利用三代数据做了全面的分析,生物信息分析也是亮点。



百迈客生物科技有限公司拥有Pacbio RSII 测序平台,实验平台和信息分析平台成熟稳定,利用此平台完成多个物种基因组Denovo、全长转录组测序,欢迎前来咨询,期待与您合作



长按识别指纹加关注

为您的科研保驾护航


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存